• 2021 - 2022
  • Traitement Automatique des Langues

Objectifs

La BàO 1 permet de parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique).

Objectifs

  • Extraire le texte avec des méthodes « rustiques » : les expressions régulières.

  • Extraire le texte avec des outils adaptés (Perl & Python).

  • Intégrer ces traitements dans le programme de parcours d'une arborescence de fils RSS.

  • Préparer 2 types de sortie : texte brut et texte structuré en XML.

Organisation des fils RSS du Monde

Nous travaillerons sur les rubriques international (3210) et société (3224)

La rubrique à la une contient tout type de données, ce n'est peut-être pas une rubrique intéressante.

Rubriques recommandées : international économie et société.

le dossiers de travail contient plusieurs type de fichiers (txt, xml et html), mais on ne se concentre que sur les fichiers RSS..